網路上充滿了資料:新聞、股價、天氣、球賽比分、商品價格… 如果要手動複製貼上,不但累人還容易出錯,網路爬蟲(Web Scraping)就是讓程式自動幫我們抓取這些資料。Python 有許多好用的套件,像 requests 負責發送請求、BeautifulSoup 負責解析 HTML。
import requests
url = "https://example.com"
response = requests.get(url)
print("狀態碼:", response.status_code)
print("前100字:", response.text[:100])
from bs4 import BeautifulSoup
html = """
<html><body>
<h1>我的標題</h1>
<p class="content">這是一段文字</p>
</body></html>
"""
soup = BeautifulSoup(html, "html.parser")
print(soup.h1.text) # 我的標題
print(soup.find("p", class_="content").text) # 這是一段文字
url = "https://www.ithome.com.tw/"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
titles = soup.find_all("h2")
for i, t in enumerate(titles[:5], 1): # 只取前5個
print(f"{i}. {t.text.strip()}")
這個挑戰能讓你學會把網頁變成資料
--- by Ricky